IDENTIFICAÇÃO

Título do plano de trabalho: Controle de qualidade dos dados da temperatura do ar, para as estações meteorológicas automáticas do INMET na região sul do Brasil

Nome do bolsista: Jonas Barboza Corrêa

Nome do orientador: Jônatan Dupont Tatsch

Local de execução: Laboratório de Hidrometeorologia (LHMet - UFSM)

1. INTRODUÇÃO

As observações meteorológicas (e relacionadas ambientais e geofísicas) são feitas por uma variedade de razões. Eles são usados para a preparação em tempo real de análises meteorológicas, previsões e advertências meteorológicas severas, para o estudo do clima, para operações locais dependentes do clima (por exemplo, operações locais de vôo de aeródromo, trabalhos de construção em terra e no mar), para hidrologia e meteorologia agrícola, e para pesquisa em meteorologia e climatologia (WMO, 2012).

Nos últimos anos, a automação da estação e o aumento das velocidades de transmissão de dados estão em progresso constante. É necessário um controle de qualidade rápido e efetivo para identificação e sinalização de erros ou observações suspeitas para proporcionar acesso rápido à informação e disseminação de observações confiáveis quanto possível aos usuários. Geralmente, os objetivos para o desenvolvimento de sistemas de controle de qualidade são os seguintes: tornar o controle de qualidade mais eficaz e mais próximo do tempo real; identificar erros de calibração, medição e comunicação tão próximos da fonte de observação quanto possível; focar no desenvolvimento automático de algoritmos de controle de qualidade; desenvolver um sistema abrangente de sinalização para indicar o nível de qualidade dos dados; para facilitar aos usuários de dados identificar dados suspeitos e errados e destacar os valores corrigidos (VEJEN et al., 2002). Entre os principais tipos de erros, encontram-se os erros aleatórios, os erros sistemáticos, erros grandes e os erros micrometeorológicos.

Os erros aleatórios são distribuídos de forma mais ou menos simétrica em torno de zero e não dependem do valor medido. Erros aleatórios, por vezes, resultam em superestimação e às vezes em subestimação do valor real. Em média, os erros se cancelam mutuamente. Os erros sistemáticos, por outro lado, são distribuídos de forma assimétrica em torno de zero. Em média, esses erros tendem a polarizar o valor medido acima ou abaixo do valor real. Uma razão de erros aleatórios é uma deriva a longo prazo de sensores. Erros grandes (ásperos) são causados por mau funcionamento de dispositivos de medição ou por erros cometidos durante o processamento de dados; Os erros são facilmente detectados por cheques. Os erros micrometeorológicos (representatividade) são o resultado de perturbações em pequena escala ou sistemas meteorológicos que afetam a observação do tempo. Estes sistemas não são completamente observáveis pelo sistema de observação devido à resolução temporal ou espacial do sistema de observação. No entanto, quando tal fenômeno ocorre durante uma observação de rotina, os resultados podem parecer estranhos em comparação com as observações circundantes que ocorrem ao mesmo tempo (ZAHUMENSKÝ, 2004).

No Brasil, os dados fornecidos, em sua maioria, encontram-se em sua forma bruta, sem que a qualidade dos mesmos seja verificada. Este trabalho consiste em, através da aplicação de certos métodos de controle de qualidade (QC), verificar e rotular tais dados como suspeitos ou não, para que futuramente possam serem melhores aproveitados em seu uso, com um maior grau de confiabilidade.

2. METODOLOGIA

A metodologia adotada consiste em duas partes, inicialmente os dados brutos passarão por uma seleção inicial baseada em certos fatores, em seguida, eles serão submetidos à uma série de testes de controle de qualidade, que os qualificarão como suspeitos ou não, além, de obter-se certas informações relevantes a respeito deles.

2.1 SELEÇÃO DO PERÍODO DE DADOS

Neste trabalho, serão usados dados horários da Temperatura do Ar (Tar) de 91 Estações Meteorológicas Automáticas (EMAs) do Instituto Nacional de Meteorologia (INMET), localizadas na região sul do Brasil (Figura 01a). Ao todo, os estados do Paraná (PR), Rio Grande do Sul (RS) e Santa Catarina (SC), possuem, respectivamente, 27, 42 e 22 EMAs em funcionamento, tendo períodos de funcionamento que variam de pouco mais de um mês (A897 - Cambará do Sul), até mais de 16 anos (A801 - Porto Alegre) (Figura 01b). Os dados horários de Tar utilizados estão no padrão do Tempo Universal Coordenado (UTC).

O modelo dos sensores de temperatura usado é o QMH102 da fabricante Vaisala, estes possuem acurácia de ±0,2°C, e são instalados a uma altura de 2 metros acima do solo (VAISALA, 2002). Uma estação meteorológica automática (EMA) deve ser instalada em uma área gramada fechada com um cercado de tela metálica de 14m x 18m e um mínimo de \(50m^2\) livre de efeitos de construções ao seu redor e protegida contra roubo e vandalismos (INMET, 2011).

Figura 01 – (a) Localização das 91 EMAs do INMET no sul do Brasil, (b) Período de dados das 91 EMAs em anos.

Dois critérios serão usados para a seleção dos dados que serão utilizados, (i) as estações meteorológicas automáticas devem terem no mínimo quatro anos de dados (podendo serem descontínuos), para haver um tempo mínimo para análise ser consistente, e (ii) o período de análise terá início em 01/01/2008, tendo como data final 31/12/2016. Este ano inicial foi escolhido, pois a partir dele notou-se um bom acrescimo na quantidade de EMAs existente (Figura 02), além de que, a distribuição espacial delas tornou-se mais homogênea (Figura 03 e Figura 04).

Figura 02 – EMAs com início de funcionamento pré-pós 2008

Figura 03 – Disponibilidade mensal para cada uma das 91 EMA da região sul do Brasil.

Figura 04 – Evolução temporal mensal do número de EMAs.

Para que a seleção fosse feita, antes, foi necessário uma regularização das séries temporais de cada EMA, para assim garantir que todas tenham 24 horas em cada dia, e 365 (ou 366 dias, se ano bissexto) em cada ano.

Após a seleção, restaram ao todo 80 EMAs para análise, estando 24 localizadas no estado do Paraná (PR), 36 no estado do Rio Grande do Sul (RS) e 20 no estado de Santa Catarina (SC), com disponibilidade de dados variando de 41,5% (A883 - Ibirubá) até 99,4 (A803 - Porto Alegre) (Figura 05). Na Tabela 01 é mostrado as EMAs selecionadas que apresentaram o maior período de dados.

Figura 05 – Disponibilidade das 80 EMAs selecionadas do período de 2008 até 2016

Tabela 01 – Informações sobre as EMAs: Início de Funcionamento, Período, Latitude, Longitude, Altitude.

2.1.1 Informações Técnicas

Para a realização deste trabalho, foi utilizado a linguagem de programação R (R Core Team, 2017), com o software livre com ambiente de desenvolvimento integrado Rstudio (RStudio Team, 2016), e os seguintes pacotes foram utilizados:

dplyr (WICKHAM, 2017), DT (XIE, 2016), ggplot2 (WICKHAM, 2016), kableExtra (ZHU, 2017), knitr (XIE, 2017), lubridate (GROLEMUND, 2016), magrittr (BACHE; WICKHAM, 2014), openair (CARSLAW; ROPKINS, 2017), padr (THOEN, 2017), plyr (WICKHAM, 2016), raster (HIJMANS, 2016), scales (WICKHAM, 2017), stringr (WICKHAM, 2017), tidyverse (WICKHAM, 2017).

2.2 TESTES DE CONTROLE DE QUALIDADE

Os testes aplicados aos dados da temperatura do ar serão dividos em categorias, sendo elas: Limites do Intervalo de Variação, Persistência Temporal, Consistência Interna, Consistência Temporal, Consistência Espacial e Homogeneidade Temporal. Eles são mostrados na Tabela 02, e os dados foram considerados suspeitos quando os testes são válidos.

Tabela 02 – Controles de qualidade (QCs) aplicados aos dados da temperatura do ar das EMAs do INMET

Processo de Validação Temperatura do Ar (em °C) Referências
(QC1) Teste do Intervalo de Variação \((a)\) \(T_{avg}\) < \(-50°C\) ou \(T_{avg}\) > \(60°C\) (ESTÉVEZ el al., 2011)
\((b)\) \(T_{avg}\) < \(T_{low}\) ou \(T_{avg}\) > \(T_{high}\) (ESTÉVEZ el al., 2011)
(QC2) Teste de Persistência Temporal \((a)\) \(T_{avg} (h)\) = \(T_{avg} (h-1)\) = \(T_{avg} (h-2)\) = … = \(T_{avg} (h-n)\) (MEEK; HATFIELD, 1994)
(QC3) Teste de Consistência Interna \((a)\) \(T_{min}(h)\)\(T_{max}(h)\) (ESTÉVEZ el al., 2011)
\((b)\) \(T_{inst}(h)\) < \(T_{min}(h)\) ou \(T_{inst}(h)\) > \(T_{max}(h)\)
\((c)\) \(T_{avg}(h)\) < \(T_{davg,f}(h)\)
\((d)\) \(T_{avg}(d)\) < \(T_{min}(d)\) ou \(T_{avg}(d)\) > \(T_{max}(d)\) (MEEK; HATFIELD, 1994)
\((e)\) \(T_{max}(d)\) < \(T_{min}(d-1)\) (ESTÉVEZ el al., 2011)
\((f)\) \(T_{min}(d)\)\(T_{max}(d-1)\) (ESTÉVEZ el al., 2011)
(QC4) Teste de Consistência Temporal \((a)\) \(|T_{avg}(h)\) - \(T_{avg}(h-dt)|\) > \(T_{tol} (dt)\) (WMO, 1993)

Nota: \(T_{avg}(h)\) é a média aritmética simples de \(T_{min}(h)\) (temperatura mínima do ar) e \(T_{max}(h)\) (temperatura máxima do ar); \(-50°C\) e \(60°C\) são, respectivamente, os limites mínimo e máximo instrumental; \(T_{low}\) e \(T_{high}\) são, respectivamente, os valores mínimo e máximo já registrados pela estação climatológica mais próxima de cada EMA; \(n\) é um número natural, correspondente à(s) hora(s) anteriores à \(T_{avg} (h)\); \(T_{min}(h)\) e \(T_{max}(h)\) são, respectivamente, os valores mínimo e máximo horário de temperatura; \(T_{inst}(h)\) é a temperatura instantânea do ar, que corresponde à média de um minuto de 12 valores de amostragens medidos a cada cinco segundos; \(T_{davg,f}(h)\) é a temperatura média do ponto de orvalho, filtrada apenas com dados que passaram nos testes ‘a’ e ‘b’ do QC3, aplicados para a variável \(T_{davg}(h)\) (temperatura média do ponto de orvalho horária); \(T_{avg}(d)\) é média aritmética simples das \(T_{avg}(h)\); \(T_{min}(d)\) é o menor valor de temperatura registrada no dia das \(T_{min}(h)\); \(T_{max}(d)\) é o maior valor de temperatura registrada no dia das \(T_{max}(h)\); \(T_{min}(d-1)\) é a temperatura mínima do dia anterior; \(T_{max}(d-1)\) é a temperatura máxima do dia anterior; \(dt\) são valores correspondentes a uma determinada hora, sendo eles: 1h, 2h, 3h, 6h e 12h; \(T_{tol} (dt)\) é um valor tolerável de temperatura, que varia com \(dt\), recebendo os seguintes valores respectivos: 4°C (1h), 7°C (2h), 9°C (3h), 15°C (6h) e 25°C (12h).

3. RESULTADOS

3.1 Limites do Intervalo de Variação (QC1)

(a) A aplicação do teste de Limites do Intervalo de Variação ‘a’ nas 80 EMAs selecionadas, não gerou nenhuma EMA que apresentou dados considerados suspeitos.

(b) A aplicação do teste de Limites do Intervalo de Variação ‘b’ nas 80 EMAs selecionadas, gerou 66 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.1006% (79 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A845 – Morro Da Igreja/Bom Jardim Da Serra (SC), com 2.1872% (1726 horas) (Tabela 03).

Tabela 03 – EMAs com maior número de dados considerados suspeitos no teste QC1b em ordem decrescente.

## # A tibble: 66 x 5
##    Código Estado Nome              `Dados Suspeitos (em… `Dados Suspeitos …
##    <chr>  <ord>  <chr>                             <int>              <dbl>
##  1 A845   SC     Morro Da Igreja …                  1726              2.19 
##  2 A851   SC     Itapoá                              402              0.509
##  3 A820   PR     Marechal Cândido…                   354              0.449
##  4 A850   PR     Paranapoema                         337              0.427
##  5 A882   RS     Teutônia                            306              0.388
##  6 A869   PR     Cidade Gaúcha                       229              0.290
##  7 A849   PR     Diamante Do Norte                   183              0.232
##  8 A843   PR     Dois Vizinhos                       136              0.172
##  9 A831   RS     Quaraí                              122              0.155
## 10 A802   RS     Rio Grande                          109              0.138
## # … with 56 more rows

Figura 06 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC1b.

3.2 Persistência Temporal (QC2)

(a) A aplicação do teste de Persistência Temporal ‘a’ nas 80 EMAs selecionadas, gerou 80 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 4.6418% (3663 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A834 – Tramandaí (RS), com 9.446% (7454 horas) (Tabela 04).

Tabela 04 – EMAs com maior número de dados considerados suspeitos no teste QC2a em ordem decrescente.

## # A tibble: 80 x 5
##    Código Estado Nome              `Dados Suspeitos (em… `Dados Suspeitos …
##    <chr>  <ord>  <chr>                             <int>              <dbl>
##  1 A834   RS     Tramandaí                          7454               9.45
##  2 A878   RS     Mostardas                          7028               8.91
##  3 A866   SC     Laguna (Farol Sa…                  6933               8.79
##  4 A845   SC     Morro Da Igreja …                  5604               7.10
##  5 A873   PR     Morretes                           5590               7.08
##  6 A817   SC     Indaial                            5459               6.92
##  7 A808   RS     Torres                             5437               6.89
##  8 A899   RS     Santa Vitória Do…                  5180               6.56
##  9 A806   SC     Florianópolis-Sã…                  5142               6.52
## 10 A851   SC     Itapoá                             5088               6.45
## # … with 70 more rows

Figura 07 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC2a.

3.3 Consistência Interna (QC3)

(a) A aplicação do teste de Consistência Interna ‘a’ nas 80 EMAs selecionadas, gerou 80 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.1511% (119 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A851 – Itapoá (SC), com 0.6818% (538 horas) (Tabela 05).

Tabela 05 – EMAs com maior número de dados considerados suspeitos no teste QC3a em ordem decrescente.

## # A tibble: 80 x 5
##    Código Estado Nome       `Dados Suspeitos (em hor… `Dados Suspeitos (em…
##    <chr>  <ord>  <chr>                          <int>                 <dbl>
##  1 A851   SC     Itapoá                           538                 0.682
##  2 A862   SC     Rio Negri…                       389                 0.493
##  3 A867   SC     Araranguá                        328                 0.416
##  4 A803   RS     Santa Mar…                       272                 0.345
##  5 A811   RS     Canguçu                          271                 0.343
##  6 A834   RS     Tramandaí                        255                 0.323
##  7 A817   SC     Indaial                          240                 0.304
##  8 A819   PR     Castro                           240                 0.304
##  9 A864   SC     Major Vie…                       234                 0.296
## 10 A838   RS     Camaquã                          214                 0.271
## # … with 70 more rows

Figura 08 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3a.

(b) A aplicação do teste de Consistência Interna ‘b’ nas 80 EMAs selecionadas, gerou 12 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.0062% (5 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A880 – Vacaria (RS), com 0.0558% (44 horas) (Tabela 06).

Tabela 06 – EMAs com maior número de dados considerados suspeitos no teste QC3b em ordem decrescente.

## # A tibble: 12 x 5
##    Código Estado Nome           `Dados Suspeitos (em … `Dados Suspeitos (e…
##    <chr>  <ord>  <chr>                           <int>                <dbl>
##  1 A880   RS     Vacaria                            44               0.0558
##  2 A801   RS     Porto Alegre                        3               0.0038
##  3 A811   RS     Canguçu                             2               0.0025
##  4 A812   RS     Caçapava Do S…                      1               0.0013
##  5 A814   SC     Urussanga                           1               0.0013
##  6 A820   PR     Marechal Când…                      1               0.0013
##  7 A821   PR     Joaquim Távora                      1               0.0013
##  8 A846   PR     Foz Do Iguaçu                       1               0.0013
##  9 A847   PR     Ilha Do Mel                         1               0.0013
## 10 A858   SC     Xanxerê                             1               0.0013
## 11 A864   SC     Major Vieira                        1               0.0013
## 12 A869   PR     Cidade Gaúcha                       1               0.0013

Figura 09 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3b.

(c) A aplicação do teste de Consistência Interna ‘c’ nas 80 EMAs selecionadas, gerou 45 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.0769% (61 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A845 – Morro Da Igreja (Bom Jardim Da Serra) (SC), com 1.0657% (841 horas) (Tabela 07).

Tabela 07 – EMAs com maior número de dados considerados suspeitos no teste QC3c em ordem decrescente.

## # A tibble: 45 x 5
##    Código Estado Nome              `Dados Suspeitos (em… `Dados Suspeitos …
##    <chr>  <ord>  <chr>                             <int>              <dbl>
##  1 A845   SC     Morro Da Igreja …                   841              1.07 
##  2 A811   RS     Canguçu                             309              0.392
##  3 A809   RS     Uruguaiana                          241              0.305
##  4 A812   RS     Caçapava Do Sul                     208              0.264
##  5 A847   PR     Ilha Do Mel                         137              0.174
##  6 A880   RS     Vacaria                             122              0.155
##  7 A813   RS     Rio Pardo                           104              0.132
##  8 A857   SC     São Miguel Do Oe…                   102              0.129
##  9 A835   PR     Maringá                              87              0.110
## 10 A803   RS     Santa Maria                          71              0.09 
## # … with 35 more rows

Figura 10 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3c.

(d) A aplicação do teste de Consistência Interna “d” nas 80 EMAs selecionadas, não gerou nenhuma EMA que apresentou dados considerados suspeitos.

(e) A aplicação do teste de Consistência Interna ‘e’ nas 80 EMAs selecionadas, gerou 57 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.135% (4 dias), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A807 – Curitiba (PR), com 0.6083% (20 dias) (Tabela 08).

Tabela 08 – EMAs com maior número de dados considerados suspeitos no teste QC3e em ordem decrescente.

## # A tibble: 57 x 5
##    Código Estado Nome            `Dados Suspeitos (em … `Dados Suspeitos (…
##    <chr>  <ord>  <chr>                            <int>               <dbl>
##  1 A807   PR     Curitiba                            20               0.608
##  2 A824   PR     Icaraíma                            12               0.365
##  3 A828   RS     Erechim                             11               0.334
##  4 A823   PR     Inácio Martins                       9               0.274
##  5 A851   SC     Itapoá                               9               0.274
##  6 A866   SC     Laguna (Farol …                      9               0.274
##  7 A810   RS     Santa Rosa                           8               0.243
##  8 A835   PR     Maringá                              8               0.243
##  9 A825   PR     Goioere                              7               0.213
## 10 A831   RS     Quaraí                               7               0.213
## # … with 47 more rows

Figura 11 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3e.

(f) A aplicação do teste de Consistência Interna ‘f’ nas 80 EMAs selecionadas, gerou 69 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.0908% (3 dias), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A851 – Itapoá (SC), com 0.3954% (13 dias) (Tabela 09).

Tabela 09 – EMAs com maior número de dados considerados suspeitos no teste QC3f em ordem decrescente.

## # A tibble: 69 x 5
##    Código Estado Nome         `Dados Suspeitos (em d… `Dados Suspeitos (em…
##    <chr>  <ord>  <chr>                          <int>                 <dbl>
##  1 A851   SC     Itapoá                            13                 0.395
##  2 A842   PR     Nova Fátima                        9                 0.274
##  3 A863   SC     Ituporanga                         9                 0.274
##  4 A807   PR     Curitiba                           7                 0.213
##  5 A823   PR     Inácio Mart…                       7                 0.213
##  6 A824   PR     Icaraíma                           7                 0.213
##  7 A838   RS     Camaquã                            7                 0.213
##  8 A878   RS     Mostardas                          7                 0.213
##  9 A833   RS     Santiago                           6                 0.182
## 10 A873   PR     Morretes                           6                 0.182
## # … with 59 more rows

Figura 12 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC3f.

3.4 Consistência Temporal (QC4)

(a) Este controle de qualidade é divido em partes, de acordo com a variação horária da temperatura.

  • Para 1 hora: A aplicação do teste de Consistência Temporal ‘a’ nas 80 EMAs selecionadas, gerou 80 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.2705% (213 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A875 – General Carneiro (PR), com 2.0276% (1600 horas) (Tabela 10).

Tabela 10 – EMAs com maior número de dados considerados suspeitos no teste QC4a (1h) em ordem decrescente.

## # A tibble: 80 x 5
##    Código Estado Nome          `Dados Suspeitos (em h… `Dados Suspeitos (e…
##    <chr>  <ord>  <chr>                           <int>                <dbl>
##  1 A875   PR     General Carn…                    1600                2.03 
##  2 A874   PR     São Mateus D…                     866                1.10 
##  3 A819   PR     Castro                            768                0.973
##  4 A831   RS     Quaraí                            712                0.902
##  5 A821   PR     Joaquim Távo…                     693                0.878
##  6 A859   SC     Caçador                           482                0.611
##  7 A862   SC     Rio Negrinho                      441                0.559
##  8 A810   RS     Santa Rosa                        416                0.527
##  9 A814   SC     Urussanga                         391                0.496
## 10 A850   PR     Paranapoema                       338                0.428
## # … with 70 more rows

Figura 13 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (1h).

  • Para 2 hora: A aplicação do teste de Consistência Temporal ‘a’ nas 80 EMAs selecionadas, gerou 80 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.3029% (239 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A875 – General Carneiro (PR), com 2.4838% (1960 horas) (Tabela 11).

Tabela 11 – EMAs com maior número de dados considerados suspeitos no teste QC4a (2h) em ordem decrescente.

## # A tibble: 80 x 5
##    Código Estado Nome          `Dados Suspeitos (em h… `Dados Suspeitos (e…
##    <chr>  <ord>  <chr>                           <int>                <dbl>
##  1 A875   PR     General Carn…                    1960                2.48 
##  2 A874   PR     São Mateus D…                    1058                1.34 
##  3 A819   PR     Castro                            985                1.25 
##  4 A831   RS     Quaraí                            981                1.24 
##  5 A821   PR     Joaquim Távo…                     840                1.06 
##  6 A859   SC     Caçador                           625                0.792
##  7 A862   SC     Rio Negrinho                      583                0.739
##  8 A814   SC     Urussanga                         532                0.674
##  9 A810   RS     Santa Rosa                        519                0.658
## 10 A864   SC     Major Vieira                      443                0.561
## # … with 70 more rows

Figura 14 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (2h).

  • Para 3 hora: A aplicação do teste de Consistência Temporal ‘a’ nas 80 EMAs selecionadas, gerou 80 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.3767% (297 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A875 – General Carneiro (PR), com 3.1288% (2469 horas) (Tabela 12).

Tabela 12 – EMAs com maior número de dados considerados suspeitos no teste QC4a (3h) em ordem decrescente.

## # A tibble: 80 x 5
##    Código Estado Nome          `Dados Suspeitos (em h… `Dados Suspeitos (e…
##    <chr>  <ord>  <chr>                           <int>                <dbl>
##  1 A875   PR     General Carn…                    2469                3.13 
##  2 A831   RS     Quaraí                           1399                1.77 
##  3 A874   PR     São Mateus D…                    1317                1.67 
##  4 A819   PR     Castro                           1244                1.58 
##  5 A821   PR     Joaquim Távo…                    1043                1.32 
##  6 A859   SC     Caçador                           900                1.14 
##  7 A862   SC     Rio Negrinho                      805                1.02 
##  8 A814   SC     Urussanga                         753                0.954
##  9 A810   RS     Santa Rosa                        706                0.895
## 10 A850   PR     Paranapoema                       602                0.763
## # … with 70 more rows

Figura 15 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (3h).

  • Para 6 hora: A aplicação do teste de Consistência Temporal ‘a’ nas 80 EMAs selecionadas, gerou 72 EMAs que apresentaram dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.1538% (121 horas), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A875 – General Carneiro (PR), com 1.6778% (1324 horas) (Tabela 13).

Tabela 13 – EMAs com maior número de dados considerados suspeitos no teste QC4a (6h) em ordem decrescente.

## # A tibble: 72 x 5
##    Código Estado Nome          `Dados Suspeitos (em h… `Dados Suspeitos (e…
##    <chr>  <ord>  <chr>                           <int>                <dbl>
##  1 A875   PR     General Carn…                    1324                1.68 
##  2 A819   PR     Castro                            727                0.921
##  3 A831   RS     Quaraí                            666                0.844
##  4 A874   PR     São Mateus D…                     633                0.802
##  5 A821   PR     Joaquim Távo…                     565                0.716
##  6 A859   SC     Caçador                           443                0.561
##  7 A862   SC     Rio Negrinho                      364                0.461
##  8 A850   PR     Paranapoema                       340                0.431
##  9 A864   SC     Major Vieira                      340                0.431
## 10 A810   RS     Santa Rosa                        284                0.360
## # … with 62 more rows

Figura 16 – Distribuição espacial das EMAs com dados considerados suspeitos no teste QC4a (12h).

  • Para 12 hora: A aplicação do teste de Consistência Temporal ‘a’ nas 80 EMAs selecionadas, gerou 1 EMA que apresentou dados considerados suspeitos. A média da porcentagem de dados considerados suspeitos nesse teste foi 0.0013% (1 hora), e a EMA que apresentou maior porcentagem de dados considerados suspeitos foi a A875 – General Carneiro (PR), com 0.0013% (1 hora) (Tabela 14).

Tabela 14 – EMAs com maior número de dados considerados suspeitos no teste QC4a (3h) em ordem decrescente.

## # A tibble: 1 x 5
##   Código Estado Nome          `Dados Suspeitos (em h… `Dados Suspeitos (em…
##   <chr>  <ord>  <chr>                           <int>                 <dbl>
## 1 A875   PR     General Carn…                       1                0.0013

(b) Valente & Tatsch

3.5 Consistência Espacial (QC5)

3.6 Homogeneidade Temporal (QC6)

3.7 Resumo dos Resultados

3.7.1 Dados considerados suspeitos por EMA

Tabela 15 – Total absoluto de dados considerados suspeitos em cada EMA.

Nota: * total de dados horários suspeitos detectados nos testes qc1a, qc1b, qc2a, qc3a, qc3b, qc3c e qc4a (1h, 2h, 3h, 6h e 12h); ** total de dados diários suspeitos detectados nos testes qc3d, qc3e e qc3f.

Figura 17 – Distribuição espacial das EMAs com maior quantidade absoluta de dados (a) horários e (b) diários considerados suspeitos

3.7.2 Dados considerados suspeitos por QC

Tabela 16 – Total absoluto de dados considerados suspeitos em cada teste.

##        QC tipo Total de dados Suspeitos Suspeitos (em %)
## 1      2a    h        6312960    293032        4.6417528
## 2  4a_03h    h        6312960     23780        0.3766854
## 3  4a_02h    h        6312960     19124        0.3029324
## 4  4a_01h    h        6312960     17079        0.2705387
## 5      3a    h        6312960      9536        0.1510543
## 6  4a_06h    h        6312960      8739        0.1384295
## 7      1b    h        6312960      5239        0.0829880
## 8      3c    h        6312960      2730        0.0432444
## 9      3b    h        6312960        58        0.0009187
## 10 4a_12h    h        6312960         1        0.0000158
## 11     1a    h        6312960         0        0.0000000
##   QC tipo Total de dados Suspeitos Suspeitos (em %)
## 1 3e    d         263040       253        0.0961831
## 2 3f    d         263040       206        0.0783151
## 3 3d    d         263040         0        0.0000000

3.7.3 Dados considerados suspeitos por estado

Tabela 17 – Total absoluto de dados horários e diários considerados suspeitos por estado

Nota: * total de dados horários suspeitos detectados nos testes qc1a, qc1b, qc2a, qc3a, qc3b, qc3c e qc4a (1h, 2h, 3h, 6h e 12h); ** total de dados diários suspeitos detectados nos testes qc3d, qc3e e qc3f.

4. CONCLUSÃO

Somando os resultados dos testes, as estações que apresentaram o maior número de dados suspeitos nos testes horários foram: A875 – General Carneiro (PR) com 10895 horas, A845 – Morro Da Igreja/Bom Jardim da Serra (SC) com 8461 horas e A834 – Tramandaí (RS) com 7820 horas; nos testes diários foram: A807 – Curitiba (PR) com 27 dias, A851 – Italpóa (SC) com 22 dias e A824 – Icaraíma (PR) com 19 dias.

No geral, embora a maioria da estações meteorológicas automáticas tenham apresentado ao mínimo um teste onde foram detectados dados suspeitos, a porcentagem de dados suspeitos detectada em cada estação, em relação ao número total de horas de dados na mesma, é suficientemente pequeno.

5. REFERÊNCIAS BIBLIOGRÁFICAS

Carslaw, D. C. and K. Ropkins, (2012) openair — an R package for air quality data analysis. Environmental Modelling & Software. Volume 27-28, 52-61. https://cran.r-project.org/web/packages/openair/index.html

Edwin Thoen (2017). padr: Quickly Get Datetime Data Ready for Analysis. R package version 0.3.0. https://CRAN.R-project.org/package=padr

ESTÉVEZ, J. et al. Guidelines on validation procedures for meteorological data from automatic weather stations. Journal of Hydrology, p. 147, 2011. https://www.sciencedirect.com/science/article/pii/S0022169411001594

Garrett Grolemund, Hadley Wickham (2011). Dates and Times Made Easy with lubridate. Journal of Statistical Software, 40(3), 1-25. URL http://www.jstatsoft.org/v40/i03/.

Hadley Wickham, Romain Francois, Lionel Henry and Kirill Müller (2017). dplyr: A Grammar of Data Manipulation. R package version 0.7.4. https://CRAN.R-project.org/package=dplyr

H. Wickham. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2009 https://cran.r-project.org/web/packages/ggplot2/index.html

Hadley Wickham (2017). scales: Scale Functions for Visualization. R package version 0.5.0. https://CRAN.R-project.org/package=scales

Hadley Wickham (2017). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.2.0. https://CRAN.R-project.org/package=stringr

Hadley Wickham (2017). tidyverse: Easily Install and Load ‘Tidyverse’ Packages. R package version 1.1.1. https://CRAN.R-project.org/package=tidyverse

Hadley Wickham (2011). The Split-Apply-Combine Strategy for Data Analysis. Journal of Statistical Software, 40(1), 1-29. URL http://www.jstatsoft.org/v40/i01/.

Hao Zhu (2017). kableExtra: Construct Complex Table with ‘kable’ and Pipe Syntax. R package version 0.5.2. https://CRAN.R-project.org/package=kableExtra

INMET. Rede de Estações Meteorológicas Automáticas do INMET. NOTA TÉCNICA No. 001/2011/SEGER/LAIME/CSC/INMET, p. 4, 2011. http://www.inmet.gov.br/portal/css/content/topo_iframe/pdf/Nota_Tecnica-Rede_estacoes_INMET.pdf

MEEK, D. W.; HATFIELD, J. L. Data quality checking for single station meteorological databases. Agricultural and Forest Meteorology, p. 90-91, 1994. https://ac.els-cdn.com/0168192394900833/1-s2.0-0168192394900833-main.pdf?_tid=868c718a-0b8d-11e8-8581-00000aab0f26&acdnat=1517956491_41a505ab0f4dff5b801e7e33aab57b66

R Core Team (2017). R: A language and environment for statistical computing.** R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/

RStudio Team (2016). RStudio: Integrated Development for R. RStudio, Inc., Boston, MA. http://www.rstudio.com/

Robert J. Hijmans (2016). raster: Geographic Data Analysis and Modeling. R package version 2.5-8. https://CRAN.R-project.org/package=raster

Stefan Milton Bache and Hadley Wickham (2014). magrittr: A Forward-Pipe Operator for R. R package version 1.5. https://CRAN.R-project.org/package=magrittr

VAISALA. Automatic Weather Station MAWS301 INSTALLATION MANUAL. p. 66, 2002. http://www.eso.org/gen-fac/pubs/astclim/lachira/docs/Vaisala/User%20Guides/M010114en-B.pdf

VEJEN et al. Quality control of meteorological observations: Automatic Methods Used in the Nordic Countries. Norwegian Meteorological Institute, p. 11, 2002. https://pdfs.semanticscholar.org/a0cf/7f5585c0cacee67e72d5583fc1a1d1f4de25.pdf?_ga=2.65464238.1806094589.1521820545-91514076.1517953769

WMO. GUIDE ON THE GLOBAL DATA-PROCESSING SYSTEM, p. VI.21, 1993. https://library.wmo.int/pmb_ged/wmo_305_en.pdf

WMO. Guide to Meteorological Instruments and Methods of Observation, p. 1, 2012. https://library.wmo.int/pmb_ged/wmo_8_en-2012.pdf

Yihui Xie (2016). DT: A Wrapper of the JavaScript Library ‘DataTables’. R package version 0.2. https://CRAN.R-project.org/package=DT

Yihui Xie (2017). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.17. https://cran.r-project.org/web/packages/knitr/index.html

ZAHUMENSKÝ, I. Guidelines on Quality Control Procedures for Data from Automatic Weather Stations. World Meteorological Organization, p. 3-4, 2004. https://www.wmo.int/pages/prog/www/IMOP/meetings/Surface/ET-STMT1_Geneva2004/Doc6.1(2).pdf